\chapter{贝叶斯逆概率理论：从1763年推导到现代应用}
\author{李国斌}
\date{2025年09月07日}

	\begin{abstract}
		本文深入探讨托马斯·贝叶斯（Thomas Bayes）于1763年提出的逆概率理论及其历史意义。论文详细分析了贝叶斯定理的原始推导过程，阐释其从二项分布参数估计问题出发，通过几何概率模型构建先验分布，最终得到后验概率计算公式的完整逻辑链条。贝叶斯方法的核心在于将概率解释为主观置信度，并提供了在获得新证据后更新信念的数学框架。这一理论不仅为统计学开辟了全新范式，更成为现代机器学习、人工智能等领域的基础工具。本文通过TikZ图表直观展示贝叶斯推断的几何意义和计算过程，揭示了这一250年前数学思想的持久生命力。
		
		\vspace{\baselineskip}
		\noindent\textbf{关键词：} 贝叶斯定理；逆概率；先验分布；后验概率；统计推断；机器学习
	\end{abstract}
	
	\section{引言}
	1763年，英国长老会牧师兼数学家托马斯·贝叶斯（Thomas Bayes, 1701-1761）的遗作《论机会学说中一个问题的解》（An Essay towards solving a Problem in the Doctrine of Chances）在皇家学会哲学汇刊上发表。这篇论文解决了一个根本性问题：如何根据观察到的结果推断产生该结果的原因的概率？这种"由果溯因"的推理被称为逆概率问题（Inverse Probability），与传统的"由因推果"的正向概率问题形成对比。
	
	贝叶斯的解决方案——贝叶斯定理，不仅提供了一种数学工具，更开创了一种全新的概率解释范式。本文将详细重构贝叶斯的原始推导过程，分析其数学内涵，并探讨其现代应用。
	
	\section{贝叶斯的原始问题与几何模型}
	\subsection{问题表述}
	贝叶斯考虑了一个典型的二项试验问题：假设一台机器投掷一个球到一个平坦的桌面上，球可能落在桌面的任何位置。重复投掷$n$次后，观察到球落在某特定区域成功了$k$次，失败了$n-k$次。如何根据这一观察结果推断该球每次投掷时落在该区域的真实概率$p$？
	
	用现代术语表述，即给定成功次数$k$服从二项分布$Bin(n, p)$，如何估计参数$p$的值。
	
	\subsection{几何概率模型}
	贝叶斯的创新之处在于引入了一个巧妙的几何模型来表示先验无知（prior ignorance）状态：
	
	\begin{figure}[h!]
		\centering
		\begin{tikzpicture}[scale=2.5]
			% Draw the unit square
			\draw[->] (0,0) -- (1.2,0) node[right] {$x$};
			\draw[->] (0,0) -- (0,1.2) node[above] {$y$};
			\draw[thick] (0,0) -- (1,0) -- (1,1) -- (0,1) -- cycle;
			\node at (0.5, -0.1) {1};
			\node at (-0.1, 0.5) {1};
			
			% Draw a point on the line y=x
			\draw[dashed] (0,0) -- (1,1);
			\filldraw[red] (0.6,0.6) circle (0.5pt);
			\node[red, above right] at (0.6,0.6) {$(p,p)$};
			
			% Draw the success and failure areas
			\fill[green!20] (0.6,0) -- (0.6,0.6) -- (1,0.6) -- (1,0) -- cycle;
			\node at (0.8, 0.3) {成功};
			
			\fill[red!20] (0,0.6) -- (0.6,0.6) -- (0.6,1) -- (0,1) -- cycle;
			\node at (0.3, 0.8) {失败};
			
			% Draw the uniform prior distribution along the diagonal
			\draw[blue, very thick] (0,0) -- (1,1);
			\node[blue, rotate=45] at (0.7,0.5) {先验分布$f(p)=1$};
		\end{tikzpicture}
		\caption{贝叶斯的几何概率模型：单位正方形中对角线上的均匀先验分布}
		\label{fig:bayes_geom_model}
	\end{figure}
	
	贝叶斯假设参数$p$在$[0,1]$上具有均匀先验分布，即$f(p) = 1$。这一假设体现在几何模型中，即在对角线$y=x$上的均匀分布。
	
	\section{贝叶斯定理的推导过程}
	\subsection{条件概率与联合分布}
	设观测数据为$D$（$n$次试验中$k$次成功），参数为$p$。根据条件概率定义：
	\[
	P(p|D) = \frac{P(D, p)}{P(D)} = \frac{P(D|p)P(p)}{P(D)}
	\]
	这就是贝叶斯定理的核心形式：后验概率正比于似然函数乘以先验概率。
	
	\subsection{二项分布的似然函数}
	对于二项分布，似然函数为：
	\[
	P(D|p) = P(k|p,n) = \binom{n}{k} p^k (1-p)^{n-k}
	\]
	
	\subsection{先验分布与后验分布}
	假设均匀先验$P(p) = 1$，则联合分布为：
	\[
	P(D, p) = P(k|p,n)P(p) = \binom{n}{k} p^k (1-p)^{n-k} \cdot 1
	\]
	
	边缘概率$P(D)$需要通过积分计算：
	\[
	P(D) = P(k) = \int_0^1 P(k|p,n)P(p) dp = \binom{n}{k} \int_0^1 p^k (1-p)^{n-k} dp
	\]
	
	\subsection{贝塔积分与后验分布}
	其中的积分正是贝塔函数：
	\[
	\int_0^1 p^k (1-p)^{n-k} dp = B(k+1, n-k+1) = \frac{k!(n-k)!}{(n+1)!}
	\]
	
	因此后验分布为：
	\[
	P(p|D) = \frac{P(k|p,n)P(p)}{P(k)} = \frac{p^k (1-p)^{n-k}}{B(k+1, n-k+1)} = \frac{\Gamma(n+2)}{\Gamma(k+1)\Gamma(n-k+1)} p^k (1-p)^{n-k}
	\]
	
	这正是贝塔分布$Beta(k+1, n-k+1)$的概率密度函数。
	
	\begin{figure}[h]
		\centering
		\begin{tikzpicture}[scale=1.2]
			% Define the Beta distribution function
			declare function={betadist(\x,\a,\b)=(\x^(\a-1))*((1-\x)^(\b-1))/(exp(lgamma(\a)+lgamma(\b)-lgamma(\a+\b)));}
			
			% Draw axes
			\draw[->] (0,0) -- (5,0) node[right] {$p$};
			\draw[->] (0,0) -- (0,3) node[above] {$f(p|k,n)$};
			
			% Draw prior distribution (uniform)
			\draw[blue, thick] (0,1) -- (4,1);
			\node[blue, above] at (2,1) {先验分布 $Beta(1,1)$};
			
			% Draw posterior distributions for different data
			\draw[red, thick, domain=0:1, samples=100] plot (\x*4, {2.5*betadist(\x, 6, 6)});
			\node[red, above] at (1.5,1.8) {$k=5, n=10$ $Beta(6,6)$};
			
			\draw[green!60!black, thick, domain=0:1, samples=100] plot (\x*4, {2.5*betadist(\x, 11, 6)});
			\node[green!60!black, above] at (2.8,2.2) {$k=10, n=15$ $Beta(11,6)$};
			
			\draw[orange, thick, domain=0:1, samples=100] plot (\x*4, {2.5*betadist(\x, 21, 6)});
			\node[orange, above] at (3.2,1.5) {$k=20, n=25$ $Beta(21,6)$};
			
			% Add labels
			\node at (0, -0.2) {0};
			\node at (4, -0.2) {1};
		\end{tikzpicture}
		\caption{贝叶斯更新：从均匀先验到不同后验分布}
		\label{fig:bayesian_update}
	\end{figure}
	
	\section{贝叶斯推断的现代诠释}
	\subsection{主观概率解释}
	贝叶斯定理的核心创新在于将概率解释为对命题的置信度（degree of belief），而非传统的频率解释。这使得概率能够应用于更广泛的领域，包括那些无法重复试验的情形。
	
	\subsection{先验知识的作用}
	先验分布$P(p)$代表了在看到数据之前对参数$p$的已有知识。均匀先验$P(p)=1$表示"完全无知"的状态，但随着数据的积累，后验分布会越来越集中于真实参数值附近。
	
	\subsection{序贯更新特性}
	贝叶斯推断具有优美的序贯特性：当前的后验分布可以作为下一次推断的先验分布。这一特性非常适合在线学习和实时数据分析。
	
	\[
	P(p|D_{\text{new}}, D_{\text{old}}) \propto P(D_{\text{new}}|p) P(p|D_{\text{old}})
	\]
	
	\begin{figure}[h]
		\centering
		\begin{tikzpicture}[
			node distance=1.5cm,
			roundnode/.style={circle, draw=black, thick, minimum size=1cm},
			rectnode/.style={rectangle, draw=black, thick, minimum width=2cm, minimum height=1cm},
			arrow/.style={-Stealth, thick}
			]
			% Nodes
			\node[roundnode, fill=blue!20] (prior) {先验};
			\node[rectnode, fill=green!20, right=of prior] (likelihood) {似然函数};
			\node[roundnode, fill=red!20, right=of likelihood] (posterior) {后验};
			\node[rectnode, fill=yellow!20, below=of likelihood] (data) {新数据};
			
			% Arrows
			\draw[arrow] (prior) -- (likelihood);
			\draw[arrow] (likelihood) -- (posterior);
			\draw[arrow] (data) -- (likelihood);
			
			% Feedback loop
			\draw[arrow] (posterior) to [bend right=40] node[midway, right] {更新} (prior);
			
			% Labels
			\node[above=0.2cm of prior] {$P(p)$};
			\node[above=0.2cm of posterior] {$P(p|D)$};
			\node[below=0.2cm of data] {$D$};
		\end{tikzpicture}
		\caption{贝叶斯推断的序贯更新过程}
		\label{fig:bayesian_sequential}
	\end{figure}
	
	\section{现代应用与影响}
	贝叶斯方法在现代科学和技术中有着广泛应用：
	
	\begin{itemize}
		\item \textbf{机器学习}：贝叶斯网络、高斯过程、变分推断等方法都建立在贝叶斯理论基础上
		\item \textbf{人工智能}：不确定性推理、概率编程语言（如Stan、PyMC3）
		\item \textbf{医学统计}：临床试验分析、疾病诊断模型
		\item \textbf{金融工程}：风险管理、量化投资策略
		\item \textbf{信号处理}：图像恢复、语音识别
	\end{itemize}
	
	\section{结论}
	托马斯·贝叶斯1763年的工作开创了统计推断的新范式，其核心贡献在于：
	
	第一，提出了逆概率问题的数学解决方案，建立了由果溯因的推理框架；
	第二，引入了先验分布的概念，明确承认已有知识在统计推断中的作用；
	第三，发展了几何概率模型，为连续参数估计提供了 rigorous 的数学基础；
	第四，隐含地提出了主观概率的解释，拓展了概率论的应用范围。
	
	贝叶斯定理的优美之处在于其简洁性和普适性：一个简单的数学公式 encapsulates 了学习与信念更新的本质过程。从1763年的几何概率模型到21世纪的人工智能系统，贝叶斯思想 continue  to inspire new generations of scientists and engineers，证明了深刻数学思想的永恒价值。
	